查看原文
其他

VALSE 2018 | 旷视科技Face++多项最新CV成果崭现学术盛会“华尔兹”

旷视MEGVII 2019-03-29


4月20日至22日,第八届视觉与学习青年学者研讨会(Vision And Learning SEminar/ VALSE 2018)在美丽的大连如期举行。旷视科技Face++作为铂金赞助商和 CV 产业界代表受邀赴会,向海内外的专家、学者以及业界人士展示旷视研究院最新 CV 研究成果。



作为国内最大规模的机器视觉学术盛会,VALSE 2018 不仅吸引了超过 3000 名国内外顶级专家、学者,刷新了历届参会热度,在嘉宾量级、内容质量和学术高度方面同样可圈可点。数十家 CV 代表企业的各式最新 Demo 和上百篇质量上乘的墙报得以亮相,其中抢鲜展示了 CVPR 2018 收录的 979 篇中的 56 篇;参会嘉宾大咖云集,西安电子科技大学“模式识别与智能系统”学科带头人高新波,ACM Fellow、IEEE Fellow、腾讯 Robotics X 实验室负责人张正友,澳大利亚国立大学著名 3D 视觉重建和机器人 SLAM 学者 Hongdong Li,前微软研究院资深研究员、京东 AI 研究院副院长梅涛等学界、业界顶级专家分别做了精彩纷呈的主题报告。


旷视科技Face++也向现场嘉宾做了精彩的学术分享,并汇报了旷视最新的学术工作进展以促进业界交流合作,共绘中国机器视觉事业蓝图。下文以 3 位旷视研究员的学术分享为主线,描绘旷视的 VALSE 2018 之行。


俞刚博士解读人体姿态估计冠军论文


2017 COCO 数据集竞赛中,旷视科技的两篇冠军论文《MegDet:A Large Mini-Batch Object Detector》、《Cascaded Pyramid Network for Multi-Person Pose Estimation》,在击败谷歌、微软等强劲对手之后,分别获得了 2017 COCO 物体检测和人体姿态估计第一名的瞩目佳绩。在 VALSE 2018 大会第一天的 First VALSE Workshop on Methods and Technologies for Looking At People 环节中,旷视资深研究员俞刚博士(曾带队参加 2017 COCO 竞赛获得物体检测和人体姿态估计双项第一)重点就第二篇论文作了主题报告。


旷视科技资深研究员俞刚博士


俞刚指出,多人姿态估计(Multi-Person Pose Estimation)是机器视觉领域绕不开的一个经典问题;在传统算法遭遇瓶颈之时,虽然卷积神经网络的再次崛起和快速迭代为解决这一问题带来了新工具,但还是存在一些百啃不动的“硬骨头”,比如关键点重叠、不可见以及复杂的背景。为此,旷视科技提出级联金字塔网络(Cascaded Pyramid Network/CPN),希望更好地解决关键点难以识别的问题。结果证明 CPN 非常奏效,在 COCO test-dev 数据集上平均精度(AP)达到 73.0;在 COCO test-challenge 数据集上平均精度(AP)达到 72.1,相较于2016年的最佳成绩(60.5)有 19% 的提升,从而实现了当前最优水平。


那么旷视提出的 CPN 是如何实现的呢?俞刚说大体在于一个 two-stage 的模型架构:GlobalNet 和 RefineNet(见下图),这是一种 top-down pipeline,先通过检测器检测出图像之中的人,再把每个人抠出来并做单人姿态估计,最后把结果整合到原图上。CPN 这种两阶段架构设计的想法其实也不复杂,甚至可以说是相当朴素直观,来源于人是怎么识别人体关键点,即由特征金字塔网络 GlobalNet 先识别出简单关键点,再由(借助online hard keypoint mining loss的)RefineNet 整合来自前者的特征表征以识别余下的困难关键点。这样从易到难,层层推进,最终克服了关键点难以识别的问题。


级联金字塔网络(CPN)


这样做下来,我们也发现了一些有趣的事情和结论。CPN 的检测框来自旷视研究院的 Detection Team,如上所述旷视的 MegDet 以及 Light-Head R-CNN 取得了2017 COCO 检测第一,所以我们很自然地对两者做了对比分析,结果发现检测平均精度(Detection mAP)对关键点平均精度(Keypoint mAP)的影响在达到一定阈值(Det mAP41.1)之后微乎其微,即前者的显著提升并不会促成后者的显著提升。再比如使用 Large batch,可以把 CPN 的 mAP 提升 0.4-0.7 个百分点,这说明除了物体检测之外,Large batch同样适用于关键点识别。


张祥雨博士解读 ShuffleNet v2


讲台之外,旷视的展台也不容忽视,学术分享的精彩程度与讲台之上俞刚博士的分享相得益彰。在旷视展区,旷视资深研究员张祥雨(2016 CVPR 最佳论文 ResNet 作者之一)首次公开了独家干货 ShuffleNet v2 论文并亲自解读答疑,成为全场最受关注的焦点。ShuffleNet v2 可谓是 VALSE surprise,下面就扼要地为没有机会到现场的小伙伴们分享一下旷视研究院 ShuffleNet v2 的工作思想。


ShuffleNet v2 @ VALSE 2018


不同于侧重准确度高效的(给定计算量下的准确度)轻量级卷积神经网络(L-CNN),ShuffleNet v2  是一种侧重执行高效的(给定速度下的准确度)的新架构,而相比于 MobileNet v2 和 ShuffleNet v1,ShuffleNet v2 同时在 GPU 和 ARM 上显著提升了准确度/执行速度之间的权衡(参见下图)。


准确度/执行速度之间的权衡


L-CNN 在实际的计算机视觉处理系统中扮演着举足轻重的角色,其核心方向是开发出参数少、速度快、精度高的移动端神经网络。不同于以往一味地只追求准确度,最近的 L-CNN 架构设计逐渐转向了如何在计算复杂度(FLOPs)一定的情况下,更加高效地实现高准确度。但是,这依然不够,因为 FLOPs 和实际运行速度并不能划等号,可见在 FLOPs 一定的情况下,执行速度更快的架构,或者执行高效的模型在实际应用中同样不可或缺。


然而,在 L-CNN 领域,执行效率相比准确度效率更加不受关注,虽然一些新近研究成功实现了两者之间的权衡,但仍多是基于高效特征嵌入的启发法,或者准确度导向的模型搜索,是从准确度效率的角度思考和解决问题。而对于现有组件或架构,执行效率仅是锦上添花,一般无法在实际设备上达到最优。我们发现,随着平台和库优化越发复杂,准确度导向的研究在当前条件下推出实际的高效模型也越来越难。


张祥雨(右一)为大家现场讲解 ShuffleNet v2 论文


ShuffleNet v2 则为 L-CNN 模型的设计提供了一种以执行效率为导向的方法。首先,我们分析两个当前最优 L-CNN 模型的核心组件,通过一系列可控的评估进行相关操作的基准测试,从中得出可在我们平台上快速执行的 4 个启发式原则。正是基于上述原则,我们对 ShuffleNet v1 进行改进,提出了 ShuffleNet v2,在 GPU 和 ARM 上其准确度/速度权衡明显优于同类模型。同时我们还评估了 ShuffleNet v2 在大型分类模型和物体检测任务上的泛化能力。


魏秀参博士展示旷视最新商品识别技术


旷视展台上的亮点还不止于此,除了 ShuffleNet v2 的良心披露与解读,旷视同样展示了不少产业前沿的应用演示,比如时下大火的 ReID(旷视在2017年发表的 AlignedReID 分别在 Market1501 和 CUHK03 测试集中使首位命中率达到了 94.0% 和 96.1%,使机器首次在行人再识别问题上超越人类从而创下业界纪录。)、视频结构化、人体关键点等,下面本文将重点介绍其中一个更新的研究成果——无人货架和商品识别,它出自旷视科技南京研究院,其负责人魏秀参博士在展台为观众们进行了详尽的解答。


魏秀参(左一)、俞刚(左二)、张祥雨(右一)


首先,旷视对于无人货架和商品识别研究的基础起源于旷视在 "AI +IoT" 产业进深中的切实需要。近年来,人工智能加快了对传统行业赋能的步伐,零售行业也不例外。零售中存在的众多简单重复且容易出错的人工处理环节,这是 AI 技术重塑零售行业、实现降本增效价值的最佳切入点。新零售作为一种 AI 改造和升级之后的全新零售业态,为体量巨大的零售业开拓了一片机遇和挑战并存的新战场。


旷视南京研究院这次在 VALSE 2018 上亮相的新零售 Demo 重点展示了自动理货和取物识别两大功能。理货,即统计货架上商品SKU的类别和数量,是线下零售中必不可少的一环。自动理货的目标是替代传统高价低效且易出错的人工理货方式,通过简单的拍照上传(或者本地处理)就能自动生成准确的店内审计报告,实现铺货率、排面数、货架占有率、促销执行度各项指标的全面智能化。取物识别,即自动识别顾客从货架上拿走的商品,在无人超市和无人货柜这样的重量级的新零售产品中有着重要的应用。目前,无人超市和无人货柜的自动结算技术主要是基于电子标签(RFID)的。这一技术有两个弊端:电子标签增加了额外的成本;结算时需要人工配合。如果使用纯视觉的取物识别技术来结算则可以完美的解决以上问题,让零售店面更“轻”、更“智能”,同时升级消费体验。


https://v.qq.com/txp/iframe/player.html?vid=o0637dvuk57&width=500&height=375&auto=0

旷视南京研究院在商品识别工作中的成果演示


自2011年成立以来,VALSE 人数的节节攀高从一定程度上反映了全国乃至全球计算机视觉技术的方兴未艾之势。通过 VALSE,你可以一览学术最前沿,收获不同的视角,碰撞出启发性的火花。


旷视科技在分享之余,也唤醒了自己的学术信息触角,收获颇多。作为一家以计算机视觉为核心技术的公司,旷视坚守技术信仰与价值务实,致力于打造螺旋上升的“算法-产品-数据”闭环,实现软硬一体化,最终目的是“为了人工智能终将创造的所有美好”;而要做到以上,离不开底层的学术创新和一流的学术研讨氛围,因此对于包括旷视在内的所有 CV 公司来说,这是 VALSE 作为一个高水平、强互动的学术交流舞台的最大意义之一。



想成为旷视 Best Partner ,和我们一起激发 AI 头脑风暴

快投递简历至 campus@megvii.com我们等你到来!


(再附人体姿态估计技术校园版一发~)

https://v.qq.com/txp/iframe/player.html?vid=k0628c7ebjh&width=500&height=375&auto=0


Power  Human  with  AI.


长按二维码关注旷视(Face++)

让 机 器 看 懂 世 界

全球领先的图像识别服务

www.megvii.com

✆ 400-6700-866

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存